Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)
نویسنده
چکیده
Seminaarityössä käsitellään tiedonlouhintaa ja sen tärkeimpiä osa-alueita, kuten tekstitiedon ja WWW:n louhintaa. Erityisesti keskitytään rakenteisten dokumenttien käsittelyyn ja klusterointimenetelmiin. Rakenteisuus mahdollistaa tietokoneen tulkittavissa olevan tiedon sisällyttämisen dokumenttiin. Linkeistä ja metatiedosta saatavaa lisätietoa voidaan käyttää dokumentin analysoinnissa. Lopuksi hahmotellaan dokumenttityypin mukaan mukautettavissa oleva XML-dokumenttien klusterointisovellus.
منابع مشابه
Indeksointi ja haku rakenteisista dokumenteista
Harjoitustyössä keskitytään rakenteisten dokumenttien indeksointiin ja tiedonhakuun. Rakenteiset dokumentit ovat esimerkki puolirakenteisesta datasta, joka on joustava tietomalli tietokannoissa olevan rakenteisen tiedon ja rakenteettoman datan välimaastossa. Merkittävin tapa rakenteisten dokumenttien esittämiseen on XML-kieli. Tekstisisällön lisäksi dokumentteihin voidaan merkitä hierarkkisia e...
متن کاملSpatiaalinen klusterointi
Suurten tietomassojen käsittely ja analysointi on tietokantojen, WWW:n ja satelliittijärjestelmien takia yhä haastavampaa. Miljoonia tietueita sisältävien tietovarastojen hahmotus ei ole manuaalisin keinoin käytännöllistä tai edes mahdollista. Myös paikkatiedon määrä ja saatavuus on lisääntynyt muun tiedon mukana mm. satelliittipaikannuksen, karttapalvelujen ja muiden paikkatietojärjestelmien a...
متن کاملLearning from Environmental Data: Methods for Analysis of Forest Nutrition Time Series
Data analysis methods play an important role in increasing our knowledge of the environment as the amount of data measured from the environment increases. This thesis fits under the scope of environmental informatics and environmental statistics. They are fields, in which data analysis methods are developed and applied for the analysis of environmental data. The environmental data studied in th...
متن کاملGains from diversification on convex combinations: A majorization and stochastic dominance approach
By incorporating both majorization theory and stochastic dominance theory, this paper presents a general theory and a unifying framework for determining the diversification preferences of risk-averse investors and conditions under which they would unanimously judge a particular asset to be superior. In particular, we develop a theory for comparing the preferences of different convex combination...
متن کاملImproved immunogenicity of tetanus toxoid by Brucella abortus S19 LPS adjuvant.
BACKGROUND Adjuvants are used to increase the immunogenicity of new generation vaccines, especially those based on recombinant proteins. Despite immunostimulatory properties, the use of bacterial lipopolysaccharide (LPS) as an adjuvant has been hampered due to its toxicity and pyrogenicity. Brucella abortus LPS is less toxic and has no pyrogenic properties compared to LPS from other gram negati...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2011